過去12天都在講搜尋引擎技術和資訊檢索,這幾天要拉回來繼續介紹自然語言處理界的常見任務了!
命名實體辨識(Named Entity Recognition),顧名思義--辨識「命名實體」。命名實體指一個真實世界的物件,可能是地方、人物、組織、產品等具有專有名稱的物件。例如「New York City」(紐約市)這三個字就都是指一個地方的命名實體,或是「Donald Trump」這兩個字指一個人物的命名實體。
(圖片來源:https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da )
類似Day 2提過的詞性標註,命名實體辨識也是在字詞後面加註。而面臨和詞性標註相似的問題,同一個實體也能夠有多種標籤的可能。例如「Washington」(華盛頓)可能指一個人、一個地方、甚至一個政治性實體(英文新聞中常稱美國政府方面為華盛頓,就像稱海峽兩岸為北京、台北)。
在實作命名實體辨識時,會先將句子詞性標註。有一種詞性標註為「NP」(或「NNP」),意思是專有名詞。當辨識時看到這個標籤,機器會從實體資料庫中尋找可能的命名實體為這個字詞標上。
理論上,命名實體辨識也可以用sequence labeling的模型來做,例如Hidden Markov Model (HMM), Maximum Entropy Markov Model (MEMM), 以及CRF。目前用來處理命名實體辨識的最新技術是deep-crf模型。